智能论文笔记

CADOps-Net: Jointly Learning CAD Operation Types and Steps from Boundary-Representations

Elona Dupont , Kseniya Cherenkova , Anis Kacem , Sk Aziz Ali , Ilya Arzhannikov , Gleb Gusev , Djamila Aouada

分类：计算机视觉

2022-08-22

3D反向工程是一个备受追捧的人，但在计算机辅助设计（CAD）行业中却没有完全实现。目的是恢复CAD模型的施工历史。从CAD模型的边界表示（B-REP）开始，本文提出了一个新的深神经网络CADOPS-NET，该网络共同学习了CAD操作类型和分解为不同的CAD操作步骤。这种联合学习允许将B-REP划分为在同一施工步骤中由各种CAD操作创建的部分；因此，提供相关信息以进一步恢复设计历史记录。此外，我们提出了新颖的CC3D-OPS数据集，其中包括带有CAD操作类型标签和步骤标签注释的37K $ CAD型号。与现有数据集相比，CC3D-OPS模型的复杂性和种类更接近用于工业目的的模型。我们对拟议的CC3D-OPS和公开融合360数据集进行的实验证明了Cadops-NET相对于最先进的竞争性能，并确认了CAD操作类型和步骤联合学习的重要性。

translated by 谷歌翻译

CoLES: Contrastive Learning for Event Sequences with Self-Supervision

Dmitrii Babaev , Ivan Kireev , Nikita Ovsov , Mariya Ivanova , Gleb Gusev , Ivan Nazarov , Alexander Tuzhilin

分类：机器学习

2020-02-19

我们解决了现实世界用户生成的离散事件序列上的自我监督学习问题。自我监督的学习将来自原始数据的复杂信息包含在低维固定长度矢量表示中，这些信息可以轻松地应用于各种下游机器学习任务中。在本文中，我们提出了一种新方法“ COLES”，该方法将以前用于音频和计算机视觉域的对比度学习适应自我监督的设置中的离散事件序列域。我们根据大型欧洲金融服务公司的交易序列部署了COLES嵌入。 COLES嵌入的用法显着提高了预先存在的模型在下游任务上的性能，并产生了巨大的财务收益，每年以数亿美元的价格衡量。我们还在几个公共事件序列数据集上评估了COLES，并表明COLES表示在不同的下游任务上始终超过其他方法。

translated by 谷歌翻译

CatBoost: unbiased boosting with categorical features

Liudmila Prokhorenkova , Gleb Gusev , Aleksandr Vorobev , Anna Veronika Dorogush , Andrey Gulin

分类：

2017-06-28

This paper presents the key algorithmic techniques behind CatBoost, a new gradient boosting toolkit. Their combination leads to CatBoost outperforming other publicly available boosting implementations in terms of quality on a variety of datasets. Two critical algorithmic advances introduced in CatBoost are the implementation of ordered boosting, a permutation-driven alternative to the classic algorithm, and an innovative algorithm for processing categorical features. Both techniques were created to fight a prediction shift caused by a special kind of target leakage present in all currently existing implementations of gradient boosting algorithms. In this paper, we provide a detailed analysis of this problem and demonstrate that proposed algorithms solve it effectively, leading to excellent empirical results.

translated by 谷歌翻译

Evolution of a Web-Scale Near Duplicate Image Detection System

Andrey Gusev , Jiajing Xu

分类：计算机视觉

2022-09-18

检测几乎重复的图像是照片共享Web应用程序的内容生态系统的基础。但是，当涉及包含数十亿张图像的网络尺度图像语料库时，此类任务是具有挑战性的。在本文中，我们提出了一个有效的系统，用于检测80亿张图像中的近重复图像。我们的系统包括三个阶段：候选人生成，候选人选择和聚类。我们还证明，该系统可用于大大提高许多现实应用程序的建议和搜索结果的质量。此外，我们还包括六年来系统的发展，为新系统如何设计以适应有机内容的增长以及最新技术的方式提供体验和课程。最后，我们正在释放本文介绍的约53,000对图像的人体标记的数据集。

translated by 谷歌翻译

Examining Large Pre-Trained Language Models for Machine Translation: What You Don't Know About It

Lifeng Han , Gleb Erofeev , Irina Sorokina , Serge Gladkoff , Goran Nenadic

分类：自然语言处理 | 人工智能

2022-09-15

预训练的语言模型（PLM）通常会利用单语和多语言数据集的优势，该数据集可以在线免费获得，以在部署到特定任务中之前获取一般或混合域知识。最近提出了超大型PLM（XLPLM），以声称对较小尺寸的PLM（例如机器翻译（MT）任务）声称最高性能。这些XLPLM包括Meta-AI的WMT21密度24宽-EN-X和NLLB。 \ textIt {在这项工作中，我们检查XLPLM是否绝对优于较小尺寸的PLM，在针对特定域的MTS中进行微调。}我们使用了不同大小的两个不同的内域数据：商业自动化内部数据和\ textbf {临床}在WMT2022上共享了Clinspen2022挑战的任务数据。我们选择受欢迎的玛丽安·赫尔辛基（Marian Helsinki）作为较小尺寸的PLM和来自Meta-AI的两个大型大型转换器作为XLPLM。我们的实验研究表明，1）在较小尺寸的内域商业汽车数据上，XLPLM WMT21密度24宽24宽-EN-X确实显示出使用S \ TextSc {acre} BLEU和HLEU指标的评估得分要好得多。玛丽安（Marian），即使其得分提高率低于微调后的玛丽安（Marian）； 2）在相对较大尺寸的精心准备的临床数据微调上，XLPLM NLLB \ textbf {倾向于失去}其优于较小尺寸的Marian在两个子任务（临床术语和本体概念）上使用Clinspen提供的指标Meteor，Meteor，Marian的优势。 Comet和Rouge-L，并且在所有指标上完全输给了Marian，包括S \ textsc {acre} bleu and Bleu； 3）\ textbf {指标并不总是同意}在相同的任务上使用相同的模型输出相互同意。

translated by 谷歌翻译

Towards OOD Detection in Graph Classification from Uncertainty Estimation Perspective

Gleb Bazhenov , Sergei Ivanov , Maxim Panov , Alexey Zaytsev , Evgeny Burnaev

分类：机器学习

2022-06-21

用于图形分类的分布外检测的问题远未解决。现有模型往往对OOD示例过高自信，或者完全忽略检测任务。在这项工作中，我们从不确定性估计的角度考虑了这个问题，并进行了几种最近提出的方法的比较。在我们的实验中，我们发现没有通用的OOD检测方法，并且重要的是考虑图表和预测分类分布。

translated by 谷歌翻译

Random projections and Kernelised Leave One Cluster Out Cross-Validation: Universal baselines and evaluation tools for supervised machine learning for materials properties

Samantha Durdy , Michael Gaultois , Vladimir Gusev , Danushka Bollegala , Matthew J. Rosseinsky

分类：机器学习

2022-06-17

由于机器学习是当前计算材料科学文献中的流行主题，因此为化合物创建表示形式已成为普遍的位置。这些表示形式很少被比较，因为评估了它们的性能 - 与它们一起使用的算法的性能是非平凡的。由于研究过程引起的许多材料数据集含有偏差和偏斜，因此已经引入了一个集群交叉验证（LOCO-CV），以衡量算法在预测以前看不见的材料基团时的性能。这提出了对Loco-CV测量结果的簇大小范围的影响和控制的问题。我们提出了基于组成的表示之间的详尽比较，并研究了如何使用内核近似功能来更好地分开数据以增强Loco-CV应用程序。我们发现，在大多数测试的任务中，域知识并不能提高机器学习的性能，而带隙预测是显着的例外。我们还发现，径向基函数在所有测试的10个数据集中提高了化学数据集的线性可分离性，并为在Loco-CV过程中应用此函数的应用提供了一个框架，以改善机车-CV测量结果，无论机器学习算法如何，选择度量和复合表示的选择。我们建议将内核Loco-CV作为训练范式，以示材料数据上的算法的外推能力。

translated by 谷歌翻译

Russian Texts Detoxification with Levenshtein Editing

Ilya Gusev

分类：自然语言处理 | 机器学习

2022-04-28

文本排毒是创建中性版本的有毒文本的样式转移任务。在本文中，我们使用文本编辑的概念来使用平行的俄罗斯文本语料库构建基于两步标记的排毒模型。通过此模型，我们在Russe排毒共享任务中所有模型中达到了最佳的样式转移精度，超过了较大的序列到序列模型。

translated by 谷歌翻译

SurvLatent ODE : A Neural ODE based time-to-event model with competing risks for longitudinal data improves cancer-associated Venous Thromboembolism (VTE) prediction

Intae Moon , Stefan Groha , Alexander Gusev

分类：机器学习 | (统计)机器学习

2022-04-20

从电子健康记录（EHR）数据中进行有效学习来预测临床结果，这通常是具有挑战性的，因为在不规则的时间段记录的特征和随访的损失以及竞争性事件（例如死亡或疾病进展）。为此，我们提出了一种生成的事实模型，即Survlatent Ode，该模型采用了基于基于微分方程的复发性神经网络（ODE-RNN）作为编码器，以有效地对不规则采样的输入数据进行潜在状态的动力学有效地参数化。然后，我们的模型利用所得的潜在嵌入来灵活地估计多个竞争事件的生存时间，而无需指定事件特定危害功能的形状。我们展示了我们在Mimic-III上的竞争性能，这是一种从重症监护病房收集的自由纵向数据集，预测医院死亡率以及DANA-FARBER癌症研究所（DFCI）的数据，以预测静脉血栓症（静脉血栓症（DFCI）（DFCI）（ VTE），是癌症患者的生命并发症，死亡作为竞争事件。幸存ODE优于分层VTE风险组的当前临床标准Khorana风险评分，同时提供临床上有意义且可解释的潜在表示。

translated by 谷歌翻译

Understanding DDPM Latent Codes Through Optimal Transport

Valentin Khrulkov , Gleb Ryzhakov , Andrei Chertkov , Ivan Oseledets

分类： (统计)机器学习 | 人工智能 | 机器学习

2022-02-14

Diffusion models have recently outperformed alternative approaches to model the distribution of natural images, such as GANs. Such diffusion models allow for deterministic sampling via the probability flow ODE, giving rise to a latent space and an encoder map. While having important practical applications, such as estimation of the likelihood, the theoretical properties of this map are not yet fully understood. In the present work, we partially address this question for the popular case of the VP SDE (DDPM) approach. We show that, perhaps surprisingly, the DDPM encoder map coincides with the optimal transport map for common distributions; we support this claim theoretically and by extensive numerical experiments.

translated by 谷歌翻译